1
硬件瓶颈:内存与资源限制
AI032Lesson 5
00:00

现代高性能计算面临一个根本性挑战 “内存墙”:计算吞吐量(每秒浮点运算次数,FLOPS)的爆炸式增长,远远超过了内存带宽的缓慢提升 全局内存 带宽。这种差异导致大规模多核阵列变成‘饥饿’的处理器,只能等待数据到达。

1. 带宽差距

尽管GPU每秒可执行数万亿次操作,但通往DRAM的物理路径受限于引脚密度和功耗要求。 内存作为并行性的限制因素 意味着随着线程数量的增加,每个线程的带宽下降,从而导致硬件处于空闲等待状态的停顿周期。

2. 厨房类比

想象一个现代化的厨房(即GPU核心),每小时能烹饪1000份餐食。然而,食材存放在五英里外的仓库中(即全局内存),而运送工具只有一辆快递摩托车(即内存总线)。无论你雇佣多少厨师,你的产出都受限于这辆摩托车的速度。

3. 架构对比

标准的 多核CPU系统 利用巨大的缓存来隐藏少数重型线程的延迟。然而,大规模并行架构却持续面临并发请求的“交通堵塞”。 资源限制 在寄存器和共享内存层级上的资源限制,决定了硬件被压垮前所能达到的最大并行度(占用率)。

算术强度(每字节浮点运算次数,FLOPs/Byte)性能(每秒十亿次浮点运算,GFLOPS)内存受限计算受限(峰值)
main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>